當置入物件影像至場景影像時偶爾會有不知道該物件是否適合該場景的情況發生,萬一物件種類很多,人工判斷將會是一件很痛苦的事情,此時不妨利用多模態 LLM 來助我們一臂之力!
本篇所使用的多模態 LLM 為 gpt-4o,其使用方式可參考筆者的 repo.
用程式碼批次讓多模態 LLM (gpt-4o) 對各個物件是否適合各個場景打出分數 (0~100分) 的結果如下:
scene | item | expected score | gpt-4o score |
---|---|---|---|
cattles.jpg | cola.jpg | ≤50 | 20✔️ |
cattles.jpg | steak.jpg | >50 | 85✔️ |
cattles.jpg | powder.jpg | >50 | 95✔️ |
kids.jpg | cola.jpg | >50 | 80✔️ |
kids.jpg | steak.jpg | ≤50 | 25✔️ |
kids.jpg | powder.jpg | >50 | 80✔️ |
team.jpg | cola.jpg | >50 | 90✔️ |
team.jpg | steak.jpg | >50 | 85✔️ |
team.jpg | powder.jpg | ≤50 | 40✔️ |
其中 expected score
那個欄位是筆者認為該是多少分;gpt-4o score
是多模態 LLM (gpt-4o) 給出的分數,可說是完全符合預期呢!